Contextualisation automatique de Tweets à partir de Wikipédia

نویسندگان

  • Romain Deveaud
  • Florian Boudin
چکیده

RÉSUMÉ. Les réseaux sociaux sont au centre des communications sur internet et une grande partie des échanges communautaires se fait à travers eux. Parmi eux, l’apparition de Twitter a donné lieu à la création d’un nouveau type de partage d’informations où les messages sont limités à 140 caractères. Les utilisateurs de ce réseau s’expriment donc succinctement, souvent en temps réel à partir d’un smartphone, et la teneur des messages peut parfois être difficile à comprendre sans contexte. Nous proposons dans cet article une méthode permettant de contextualiser automatiquement des Tweets en utilisant des informations provenant directement de l’encyclopédie en ligne Wikipédia, avec comme but final de répondre à la question : « De quoi parle ce Tweet ? ». Nous traitons ce problème comme une approche de résumé automatique où le texte à résumer est composé d’articles Wikipédia liés aux différentes informations exprimées dans un Tweet. Nous explorons l’influence de différentes méthodes de recherche d’articles liés aux Tweets, ainsi que de plusieurs caractéristiques utiles pour la sélection des phrases formant le contexte. Nous évaluons notre approche en utilisant la collection de la tâche Tweet Contextualization d’INEX 2012 et donnons un aperçu sur ce qui caractérise une phrase importante pour déterminer le contexte d’un Tweet.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Mesures d'informativité et de lisibilité pour un cadre d'évaluation de la contextualisation de tweets

RÉSUMÉ. Cet article s’intéresse à l’évaluation de la contextualisation de tweets. La contextualisation est définie comme un résumé permettant de remettre en contexte un texte qui, de par sa taille, ne contient pas l’ensemble des éléments qui permettent à un lecteur de comprendre son contenu. Nous définissons un cadre d’évaluation pour la contextualisation de tweets généralisable à d’autres text...

متن کامل

Tweet Contextualization Approach Based on Wikipedia and Dbpedia

Bound to 140 characters, tweets are short and not written maintaining formal grammar and proper spelling. These spelling variations increase the likelihood of vocabulary mismatch and make them difficult to understand without context. This paper falls under the tweet contextualization task that aims at providing, automatically, a summary that explains a given tweet, allowing a reader to understa...

متن کامل

La structure thème-rhème pour l'ordonnancement de documents en recherche d'information

RÉSUMÉ. La recherche d’information fait souvent l’hypothèse que les documents pertinents sont ”à propos de” la requête; la requête est ainsi supposée refléter le besoin d’information de l’utilisateur de façon appropriée. La plupart des moteurs de recherche fait l’hypothèse que le fait d’être ”à propos de” peut être mesuré par l’appariement des termes du document et ceux de la requête selon une ...

متن کامل

Traduction automatique statistique à partir de corpus comparables : application aux couples de langues arabe-français

The present research aims to exploit comparable corpora for Statistical Machine Translation (SMT). First, a hybrid approach based on statistical and linguistics-based information is proposed for bilingual terminology extraction from Wikipedia documents. Then, we propose a hybrid approach based on length and dictionary model for the alignment of the United Nations (UN) corpus at the sentence lev...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2013